神经网络与深度学习（一）

您所在的位置：网站首页 › 神经网络统计测度 › 神经网络与深度学习（一）

神经网络与深度学习（一）

2023-03-21 11:38| 来源: 网络整理| 查看: 265

本周主要学习了以下内容：

1.线性回归

定义：利用数理统计中的回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

学习过程：

对于线性回归的求解问题，给定问题样本描述，根据目标要求，构造代价函数，对优化变量求一阶偏导，令其为0，即可求得最优解析解，且速度较快。

2.线性二分类问题描述

定义：线性分类器则透过特征的线性组合来做出分类决定，以达到此种目的。即样本通过直线(或超平面)可分。

线性分类器输入为特征向量，输出一般按具体问题进行分类。如果是二分类问题，则为0和1，或者是属于某类的概率，即0-1之间的数。同时，线性分类与线性回归差别主要在于：（1）输出意义不同：线性二分类属于某类的概率，而线性回归是回归具体值；（2）参数意义不同：线性二分类构造最佳分类直线，而线性回归则是最佳拟合直线，（3）维度一般不同。

对于构造这条二分类的“分界直线”，考虑代入直线方程的值，因为我们最终需要概率，结果在0-1之间，需要对值做一个变换，因此，引入Sigmoid函数。其曲线如下所示。

Sigmoid函数表达式：y=\frac{1}{1+e^{-x}} 。

同样，对于线性二分类的求解问题，给定问题样本描述，根据目标要求，构造误差函数，理论值引入Sigmoid函数进行概率计算，找到超平面参数保证误差函数最小，由于目标函数非线性，可通过梯度下降法构造迭代序列求其数值解。

3.对数回归与多分类回归

（1）指数回归

从概率角度看问题。二分类问题可使用条件概率描述，重新修改指标函数，假设各样本相互独立，即服从Bernoulli分布。则合理估计值应当是让所有样本事件产生的几率最大，即应当是极大似然的，对似然函数求极大值即等价于最小化目标函数。

（2）多分类回归

确定分类函数，分割多个超平面，取代价函数及其对应梯度，引入了交叉熵损失进行求解。

4.神经元模型

（1）神经元模型分类

生物神经元模型：①Spiking模型（多输入单输出模型）②Integrate-and-fire模型

人工神经元模型：人工神经元是对生物神经元的功能和结构的模拟，是对生物神经的形式化描述，是对生物神经元信息处理过程的抽象。主要有单神经元模型，即M-P模型，激发函数取单位阶跃模型。

（2）作用函数

①非对称型Sigmoid函数（Log Sigmoid）

简称S型作用函数： f(x)=\frac{1}{1+e^{-x}}

②对称型Sigmoid函数（Tangent Sigmoid）可微

f(x)=\frac{1-e^{-x}}{1+e^{-x}}

③对称型阶跃函数

具有阶跃作用函数的神经元，称为阈值逻辑单元。

（3）Hebb规则

连接权值的调整量与输入与输出的乘积成正比：

\Delta\omega=\alpha\cdot x\cdot y

5.感知机模型与多层感知机

感知机解决线性分类问题。感知机与神经元模型具有完全相同的形式。

针对线性不可分问题，无法使用感知机进行线性分类，可使用多层感知机，在输入和输出层间加一或多层隐单元，构成多层感知器，即多层前馈神经网络。

6.BP算法概述

多层前馈网络的反向传播（BP）学习算法，简称BP算法，是有导师的学习，它是梯度下降法在多层前馈网中的应用。

网络结构：见图，u、y是网络的输入、输出向量，神经元用节点表示，网络由输入层、隐层和输出层节点组成，隐层可一层，也可多层（图中是单隐层），前层至后层节点通过权联接。由于用BP学习算法，所以常称BP神经网络。

BP学习算法由正向传播和反向传播组成：

① 正向传播是输入信号从输入层经隐层，传向输出层，若输出层得到了期望的输出，则学习算法结束；否则，转至反向传播。

② 反向传播是将误差(样本输出与网络输出之差）按原联接通路反向计算，由梯度下降法调整各层节点的权值和阈值，使误差减小。

BP网络结构

BP学习算法的基本思想是梯度下降算法，通过设计权值误差形式，保证代价函数逐步减小，最终收敛至零。主要步骤如下：

① 设置初始权系数 \omega_{0} 为较小的随机非零值；

② 给定输入/输出样本对，计算网络输出, 完成前向传播

③ 计算目标函数 J 。如 J < \varepsilon , 训练成功，退出；否则转入④

④ 反向传播计算由输出层，按梯度下降法将误差反向传播，逐层调整权值。其中，误差反传由输出层进入隐含层，最后抵达输入层。

7.性能优化算法

（1）动量法

由于存在病态曲率情况，可采取动量法减小外力的干扰，使轨迹更加稳定。算法如下：

（2）自适应梯度算法

①AdaGrad算法

参数自适应变化：具有较大偏导的参数相应有一个较大的学习率，而具有小偏导的参数则对应一个较小的学习率，具体来说，每个参数的学习率会缩放各参数反比于其历史梯度平方值总和的平方根。但是学习率是单调递减的，训练后期学习率过小会导致训练困难，甚至提前结束，因此需要设置一个全局的初始学习率。算法如下：

②RMSProp算法

RMSProp 解决AdaGrad 方法中学习率过度衰减的问题， RMSProp 使用指数衰减平均以丢弃遥远的历史，使其能够快速收敛；此外，RMSProp 还加入了超参数控制衰减速率。算法如下：

③Adam算法

Adam 在 RMSProp 方法的基础上更进一步：除了加入历史梯度平方的指数衰减平均（）外，还保留了历史梯度的指数衰减平均（），相当于动量，在误差面上倾向于平坦的极小值。算法如下：

【本文地址】

公司简介

联系我们